The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
translated by 谷歌翻译
Scene text recognition (STR) enables computers to recognize and read the text in various real-world scenes. Recent STR models benefit from taking linguistic information in addition to visual cues into consideration. We propose a novel Masked Vision-Language Transformers (MVLT) to capture both the explicit and the implicit linguistic information. Our encoder is a Vision Transformer, and our decoder is a multi-modal Transformer. MVLT is trained in two stages: in the first stage, we design a STR-tailored pretraining method based on a masking strategy; in the second stage, we fine-tune our model and adopt an iterative correction method to improve the performance. MVLT attains superior results compared to state-of-the-art STR models on several benchmarks. Our code and model are available at https://github.com/onealwj/MVLT.
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
从点云中检测3D对象是一项实用但充满挑战的任务,最近引起了越来越多的关注。在本文中,我们提出了针对3D对象检测的标签引导辅助训练方法(LG3D),该方法是增强现有3D对象检测器的功能学习的辅助网络。具体而言,我们提出了两个新型模块:一个标签 - 通道诱导器,该模块诱导器将框架中的注释和点云映射到特定于任务的表示形式和一个标签 - 知识式插曲器,该标签知识映射器有助于获得原始特征以获得检测临界表示。提出的辅助网络被推理丢弃,因此在测试时间没有额外的计算成本。我们对室内和室外数据集进行了广泛的实验,以验证我们的方法的有效性。例如,我们拟议的LG3D分别在SUN RGB-D和SCANNETV2数据集上将投票人员分别提高了2.5%和3.1%的地图。
translated by 谷歌翻译
本文提出了一种新颖的统一特征优化(UFO)范式,用于训练和在现实世界和大规模场景下进行深层模型,这需要集合多个AI功能。不明飞行物的目标是通过对所有任务进行大规模预修。与众所周知的基础模型相比,UFO具有两个不同的重点,即相对较小的模型大小,没有适应性成本:1)UFO以多任务学习方式将广泛的任务挤入中等尺寸的统一模型中并在转移到下游任务时进一步修剪模型大小。 2)不明飞行物不强调转移到新任务。相反,它旨在使修剪模型专门用于一个或多个已经看到的任务。有了这两个特征,UFO为灵活的部署提供了极大的便利,同时保持了大规模预处理的好处。 UFO的一个关键优点是修剪过程不仅可以减少模型的大小和推理消耗,而且还提高了某些任务的准确性。具体而言,UFO考虑了多任务培训,并对统一模型产生了两倍的影响:一些密切相关的任务具有相互利益,而某些任务相互冲突。不明飞行物设法通过新颖的网络体系结构搜索(NAS)方法来减少冲突并保留相互利益。对各种深度表示学习任务(即面部识别,人重新识别,车辆重新识别和产品检索)的实验表明,从UFO中修剪的模型比单件任务训练的对应物更高,但却具有更高的准确性较小的型号大小,验证不明飞行物的概念。此外,UFO还支持发布170亿个参数计算机视觉(CV)基础模型,该模型是该行业中最大的CV模型。
translated by 谷歌翻译
时间是时间序列最重要的特征之一,但没有得到足够的关注。先前的时间序列预测研究主要集中于将过去的子序列(查找窗口)映射到未来的系列(预测窗口),而系列的时间通常只是在大多数情况下都扮演辅助角色。由于这些窗口中的点处理,将其推断为长期未来在模式上是艰难的。为了克服这一障碍,我们提出了一个名为DateFormer的全新时间序列预测框架,他将注意力转移到建模时间上,而不是遵循上述实践。具体而言,首先按时间序列分为补丁,以监督通过Transformers(DERT)的日期编码器表示的动态日期代表的学习。然后将这些表示形式馈入一个简单的解码器,以产生更粗的(或全局)预测,并用于帮助模型从回顾窗口中寻求有价值的信息,以学习精致(或本地)的预测。 DateFormer通过将上述两个部分求和来获得最终结果。我们对七个基准测试的经验研究表明,与序列建模方法相比,时间模型方法对于长期序列预测更有效。 DateFormer产生最先进的准确性,相对改进40%,并将最大可靠的预测范围扩大到半年水平。
translated by 谷歌翻译
自我监督的对比学习是学习无标签的视觉表示的强大工具。先前的工作主要集中于评估各种训练算法的识别精度,但忽略了其他行为方面。除了准确性外,分布鲁棒性在机器学习模型的可靠性中起着至关重要的作用。我们设计和进行一系列鲁棒性测试,以量化对比度学习与监督学习之间的行为差​​异,以使其下游或训练前数据分布变化。这些测试利用多个级别的数据损坏,范围从像素级伽马失真到补丁级的改组,再到数据集级别的分布变化。我们的测试揭示了对比度和监督学习的有趣鲁棒性行为。一方面,在下游腐败下,我们通常会观察到对比度学习比监督学习更强大。另一方面,在训练前的损坏下,我们发现对比度学习容易被补丁改组和像素强度变化,但对数据集级别的分布变化却不太敏感。我们试图通过数据增强和特征空间属性的作用来解释这些结果。我们的见解具有改善监督学习的下游鲁棒性的意义。
translated by 谷歌翻译
蛋白质通过折叠到特定的3D结构来执行生物学功能。为了准确地模拟蛋白质结构,应仔细考虑氨基酸(例如侧链扭转角度和氨基酸际方向)之间的总体几何拓扑和局部细粒关系。在这项工作中,我们提出了定向的体重神经网络,以更好地捕获不同氨基酸之间的几何关系。我们的新框架将单个重量从标量扩大到3D定向矢量,支持经典和SO(3)的丰富几何操作(3) - 表示特征,在其上,我们构建了一个可用于处理氨基酸的感知器单元信息。此外,我们还引入了一条蛋白质上的范式传递范式,以将定向权重的感知器插入现有的图形神经网络中,从而显示出在全球尺度上保持SO(3) - 均衡性方面的较高多功能性。实验表明,与经典的神经网络和(全球)模棱两可的网络相比,我们的网络在表示几何关系方面具有更好的表现力。它还在与蛋白质3D结构有关的各种计算生物学应用上实现最新性能。
translated by 谷歌翻译
分层多粒度分类(HMC)将分层多粒度标签分配给每个对象,专注于对标签层次结构进行编码,例如[“Albatross”,“Laysan Albatross”]从粗略级别进行。然而,细粒度的定义是主观的,并且图像质量可能会影响识别。因此,可以在层次结构的任何水平处观察样本,例如,例如,[“信天翁”]或[“白金贸易”,“Laysan Albatross”,并且在致动类别中辨别的示例在HMC的传统设置中通常被忽略。在本文中,我们研究了HMC问题,其中对象在层次结构的任何级别上标记。所提出的方法的基本设计源自两个动机:(1)学习在各个级别标记的物体应该转移级别之间的分层知识; (2)较低级别的类应继承与上级超类相关的属性。所提出的组合损失通过从树层次结构中定义的相关标签聚合信息来最大化观察到的地面真实标签的边际概率。如果观察到的标签处于叶片水平,则组合损失进一步施加了多级跨熵损失,以增加细粒度分类损失的重量。考虑到分层特征交互,我们提出了一个分层剩余网络(HRN),其中来自父级的粒度特定特征作为残留连接的特定特征被添加到儿童级别的特征。与最先进的HMC方法和精细的视觉分类(FGVC)方法相比,三种常用数据集的实验证明了我们的方法的有效性和利用标签层次结构的方法。
translated by 谷歌翻译
基于注册的Atlas Building经常在高维图像空间中造成计算挑战。在本文中,我们介绍了一种新的混合地图集建筑算法,该算法快速估计来自大规模图像数据集的图表,计算成本大大降低。与先前的方法相比,迭代地在估计的地图集和单个图像之间执行注册任务,我们建议使用从预先训练的神经网络的登记的学习前沿。这种新开发的混合框架具有(i)提供了一种有效的Atlas建筑工程,而不会失去结果的质量,以及(ii)在利用各种深度学习的注册方法提供灵活性。我们展示了这一提出模型对3D脑磁共振成像(MRI)扫描的有效性。
translated by 谷歌翻译